⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化
⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案:搜索自博弈 Search Self-play(SSP)⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是:让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」,它们在对抗训练中共同进化,使训练难度随着模型能⼒动态提升,最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。
来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案:搜索自博弈 Search Self-play(SSP)⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是:让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」,它们在对抗训练中共同进化,使训练难度随着模型能⼒动态提升,最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。
昨天测试了一款很拉跨的 AIGC 类产品,再也不用了。 我不清楚,为什么有些生成类的产品还在可劲强调生成能力,而不花心思做修改和编辑的体验。 一个项目做到九成,我们脑子里经常会冒出个错觉,好像离终点只
今年也是阿里从芯片到云到 PaaS 到大模型,再到顶层 agent 等全栈 AI 能力接入的首个双 11——世界范围内,从未有过如此大规模生产场景 AI 落地。 场景变化,用户量增加,叠加全栈 AI 接入——当双 11 技术备战进入第 17 个年头,其意义早已超越一次促销的技术保障。
这不,Flowith最近也搞了个新东西:FlowithOS,全球首款专为AI Agent打造的操作系统,重点是Windows用户也能用,终于不是Mac专属了:它的最大特点是:虽然长得像浏览器,但干的却是执行的事儿,能让Agent自己动鼠标、跑流程、干活。
今日,全球首个Vibe Selling AI Agent 公司「Dealism」宣布完成 1500 万美元天使轮融资,由高瓴创投(GL Ventures)领投,红杉中国、线性资本及其他投资人跟投。
试了一下 TRAE 刚更新的 Solo 正式版,发现还是挺厉害的。尤其是这个Solo coder Agent 很强。
硅谷华人大三学生创立的教育类 AI 产品 VideoTutor,近日宣布完成 1100 万美元种子轮融资,成为硅谷学生创业中融资规模最高的项目。
2025年末,谷歌通过Kaggle平台,以前所未有的力度,连续推出了两个为期五天的线上强化课程。这不仅仅是两次普通的线上分享,更像是一场由谷歌顶级机器学习(ML)研究员和工程师亲自引领的、深入探索生成式AI及其前沿应用——AI Agents(人工智能代理)的集训。
Epiminds 的核心产品是一个名为 Lucy 的 AI 营销经理,但这个描述其实远远低估了它的能力。Lucy 不是一个单一的 AI 工具,而是一个协调者,她指挥着超过 20 个专业化的 AI agent,这些 agent 各自负责不同的营销任务,共同组成了一支完整的虚拟营销团队。
AI 产业的两大核心趋势正并行发展:基础大模型的能力持续突破,而 AI Agent 的产业化落地也在全面提速。Capgemini 于 2025 年 4 月发布的一项覆盖 14 国 1500 名企业高管的调研显示[1],已有 37% 的受访组织启动或实施 AI Agent 项目,另有高达 61 %的组织将在一年内跟进部署或进行探索,印证了该趋势的全球共识。